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融合 图 片 相似 度 缓解 新 项 目 冷 启动 问题 的 研究 


Jj sh, 胡 c 


(武汉 理工 大 学 计算 机 科学 与 技术 学 院 , AXR 430070) 


摘 要 : 针对 推荐 系统 中 国 新 项 目的 如 入 而 造成 的 冷 启动 问题 ， 在 矩阵 分 解 模 型 的 基础 上 提出 了 融合 项 目 图 片 相似 度 
和 类 别 属 性 的 协同 过 滤 推荐 模型 USPTMF-CFIA。 首 先 ， 采 用 基于 用 户 偏 好 和 时 间 权 重 的 矩阵 分 解 模 型 ， 对 评分 缺失 
项 进行 预测 填充 ; 然后 , 利用 VGG16 神经 网 络 提 取 项 目 图 片 特征 , 并 结合 类 别 属 性 计算 新 项 目 与 历史 项 目的 相似 度 ， 
得 到 近邻 项 目 ; 最 后 ， 根 据 新 项 目 与 近邻 项 目 之 间 的 相似 度 预测 用 户 对 新 项 目的 评分 ， 将 评分 高 的 前 N 个 项 目 推荐 给 
对 应 用 户 ; 通过 在 GroupLens 提供 的 数据 集 上 的 实验 证 明 ， 该 模型 的 推荐 准确 率 比 MAP-BPR 模型 高 0.006-0.015, re 
传统 协同 过 滤 模 型 高 0.02~0.028， 比 没 融 合 图 片 相 似 度 的 USPTMF-CFA 模型 高 0.001~0.003， 比 ACMF 模型 高 
0.001~0.002。 
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Research on solving new item cold-start problem by combining image similarity 


Zhou Qiang, Hu Yan 
(College of Computer Science & Technology, Wuhan University of Technology, Wuhan 430070, China) 


Abstract: Aiming at the problem of cold start caused by the addition of new item in the recommendation system, This paper 
proposed a collaborative filtering recommendation model USPTMF-CFIA based on matrix factorization model, which combines 
the similarity of item image and category attributes . First, it used the matrix factorization model based on users’ preference and 
time weight to predict and fill the missing item. Then, it used the VGG16 neural network to extract the features of the item 
images and combines category attributes to calculate the similarity between the new item and the historical items, then got the 
item's neighbors. Finally, the new item is predicted based on the similarity between the new item and the neighbors, and the first 
N items with high score are recommended to the correspond user. The experiment on the dataset provided by GroupLens proved 
that the proposed accuracy rate of this model. The recommended accuracy of this model is 0.006—0.015 higher than the MAP- 
BPR model , 0.02—0.028 higher than the traditional collaborative filtering model and 0.001 ~ 0.003 higher than that of the 
USPTMF-CFA model without image similarity0.001—0.002 higher than ACMF model. 
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0 引言 测 用 户 对 项 目的 评分 ， 根 据 评 分 高 低 来 决定 是 否 将 该 项 iil 
给 用 户 ， 可 以 看 出 协同 过 滤 对 历史 数据 具有 很 强 的 依赖 。 对 于 
互联 网 的 发 展 迅 狐 ， 社 交 、 视 频 、 广 告 、 音 乐 、 外 卖 、 电 新 用 户 、 新 项 目 、 新 系统 来 说 ， 由 于 没有 任何 历史 数据 ， 导 致 
商 等 领域 越 来 越 普及 ， 已 经 渗透 到 了 人 们 生活 的 方方面面 。 如 推荐 效果 不 佳 的 问题 ， 我 们 称 之 为 冷 启动 问题 。 
何 给 用 户 提 供 更 高 品质 的 服务 ， 满 足 用 户 真正 的 需求 ， 提 升 用 姑 此 ， 本 文 针 对 协同 过 滤 算 法 中 存在 的 问题 之 一 一 一 新 项 
户 体 验 ， 是 现在 很 多 系统 普遍 关注 的 问题 。 推 荐 系统 是 现 如 今 冷 启 动 问题 展开 了 研究 。 本 文 的 主要 工作 : 
最 流行 的 技术 ， 根 据 用 户 行 为 日 志 分 析 用 户 偏 好 ， 自 动 为 用 户 a) 根 据 艾 宾 浩 斯 遗忘 曲线 外 函数 ， 提 出 了 符合 人 们 兴趣 变 
推荐 感 兴 趣 的 项 目 趾 ,目前 推荐 系统 核心 算法 仍然 是 协同 过 滤 ， 化 的 时 间 权 重 函 数 。 并 将 其 融入 到 用 户 偏好 的 矩阵 分 解 模型 
于 其 简单 有 效 ， 已 被 广泛 的 研究 与 应 用 。 其 原理 是 物 以 类 聚 ( Matrix Factorization Recommendation Algorithm Based On 
人 以 群 分 ， 通 过 计算 当前 用 户 (项 目 ) 的 KNN(K-Nearest- User's Preference And Time Weight， 简 称 USPTMF) 中 ， 使 得 该 
Neighbor) 最 近邻 ， 然 后 根据 近邻 用 户 ( 项 目 ) 的 评分 记录 来 预 模型 能 预测 出 更 贴近 用 户 兴趣 变化 的 缺失 评分 项 ， 绥 解 了 协同 
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越 弱 , 符合 大 部 分 人 类 的 情况 。 当 一 个 评分 是 最 近 评论 的 时 候 ， 
w(u,i) =1， 评 分 时 间 最 近 最 能 反应 当前 用 户 的 兴趣 走向 ， 所 
以 这 时 要 赋予 高 权重 ， 评 分 时 间 越 久 权重 越 小 。 
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宽容 ， 给 的 评分 相对 较 高 ， 有 的 用 户 则 比较 茜 责 ， 所 给 评分 相 
对 较 低 ， 因 此 模型 中 加 入 了 用 户 偏好 偏 置 值 ， 项 目 偏好 偏 轩 
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示 用 户 和 项 目的 偏好 偏执 值 ，4 为 正则 化 系数 ， 防 止 过 拟 合 。 

24 项目 相似 度 计算 

影库 中 数据 的 积累 ， 同 种 类 型 的 电影 越 来 越 多 ， 我 

们 如 何 根据 电影 类 型 来 区 分 电影 ?很 多 研究 都 是 改进 类 别 属性 

相似 度 计 算 来 更 加 精确 地 找到 近邻 项 目 ， 但 是 对 同 种 类 型 的 电 
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影 进行 类 别 属性 相似 度 计算 ， 最 终 得 到 的 相似 度 都 为 1， 取 让 
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N 项 时 就 会 导致 很 多 电影 得 不 到 推荐 .所 以 本 文 将 项 目的 “外 在 ” 


Da 


特征 片 与 目的 “内 在 ”特征 一 一 类 别 属性 相 结合 计算 项 目 
的 综合 特征 相似 度 ， 记 为 IAS。 
2.4.1 项 目 类 别 属性 相似 度 


在 实际 推荐 应 用 场景 中 ， 项 目 通 常 由 类 别 属性 值 描述 。 以 
有 E 影 为 例 ， 电 影 有 喜剧 、 动 作 、 冒 险 、 恐 怖 等 类 别 属性 。 因 此 


民 多 相关 专家 学 者 利用 类 别 属性 ， 对 相似 度 进行 改进 来 提高 模 
电 的 预测 准确 度 。 由 于 项 盟 性 矩阵 的 庞大 ， 采 用 大 量 的 乘 
法 运算 将 会 耗费 大 量 的 时 间 , 余 永 红 等 人 523 提出 的 耦合 相似 度 
计算 虽然 能 有 效 提 高 预测 准确 度 ， 但 是 计算 量 相当 大 。 在 保证 
可 行 性 的 条 件 下 ， 提 高 时 间 效 率 非常 重要 。 一 般 情 况 下 ， 为 了 
方便 计算 项 的 相似 度 ， 不 仅 要 构建 用 户 -项 目 评 分 矩阵 ， 
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站 


还 要 提取 项 目的 类 别 属 性 矩阵 。 简 单 的 示例 如 表 1、2 所 示 。 
表 1 用 户 -项 目 评分 矩阵 
n 2 D 14 5 
Ul 1 3 4 1 5 
2 2 2 5 1 4 
U3 1 3 5 2 3 
U4 2 1 4 1 5 


表 2 项 目 -类 别 属性 矩阵 


Al A2 A3 A4 AS 
I 1 1 1 0 1 
D 1 1 0 0 0 
B 0 1 0 0 1 
I4 0 1 1 0 1 
I5 1 0 0 1 1 


对 于 类 别 属性 的 数据 ,通常 利用 0 和 1 作 余弦 相似 度 计算 。 
如 表 1 所 示 , 11 ISSUE TESTA. 1, 1, 0, 13, B 的 类 别 
属性 集合 为 {0，1，0，0，1}， 通 过 类 别 集合 计算 I1 和 13 两 者 
之 间 的 相似 度 为 0.707， 但 分 析 表 1 可 以 知道 ，I3 的 平均 分 
45, I1 的 平均 分 为 1.5， 说 明 影 片 3 远 比 影片 1 好 看 ， 更 力 
到 用 户 的 喜爱 ， 但 是 得 到 两 者 之 间 的 相似 度 有 点 差强人意 ; 
看 一 个 例子 ，I4 的 类 别 属性 为 {0，1，1，0，0}， 通过 类 别 集 
计算 IJ 和 14 的 相似 度 为 0.816, 反观 影片 4 的 评分 远 远 低 于 景 
片 3 的 评分 ， 直 接 根 据 类 别 属性 计算 两 者 之 间 的 相似 度 这 种 方 
法 粒度 太 粗 。 分 析 表 2， 出 现 的 频次 有 多 有 少 , 属性 A2 和 属性 
A5 出 现 的 次 数 较为 频繁 ， 属 性 AA 出 现 的 频次 较 少 ， 那 么 属性 
出 现 的 频次 是 否 会 影响 到 项 目 相似 性 的 计算 呢 ? 对 于 电影 来 世 
影片 可 以 分 为 喜剧 和 悲剧， 喜剧 分 为 讽刺 喜剧 、 欢 乐 喜剧 、 山 
默 喜剧 、 无 厘 头 喜剧 等 小 类 ,因此 大 类 属性 -喜剧 这 个 属性 出 现 
的 频次 相 比 于 其 小 类 出 现 的 频次 要 高 ， 那 么 在 计算 相似 度 时 赋 
予 每 种 属性 的 权重 应 该 有 所 不 同 。 人 们 常 说 ,“ 物 以 稀 为 贵 ”， 
所 以 出 现 频次 少 的 属性 应 该 赋予 更 高 的 权重 。 为 了 提高 计算 效 
率 ， 很 容易 联想 到 将 属性 出 现 的 总 频次 的 倒数 作为 权重 值 ， 于 
是 得 到 如 表 3 所 示 的 矩阵 。 


mi 


n d: Kx 


Hm 


H 


RS 


表 3 引入 权重 的 项 目 -类 别 属性 矩阵 
Al A2 A3 A4 A5 
Il 0.33 0.25 0.5 0 0.25 
D 0.33 0.25 0 0 0 
B 0 0.25 0 0 0.25 
于 0 0.25 0.5 0 0.25 
I5 0.33 0 0 1 0.25 
这 时 ，I1 的 类 别 属性 集合 为 {0.33，0.25，0.5，0，0.25}， 
B 的 类 别 属性 集合 为 {0，0.25，0，0，0.25}，14 的 类 别 属性 集 


合 为 {0，0.25，0.5，0，0.25}， 得 到 影片 1 和 影片 3 的 相似 度 
为 0.595， 相 比 于 0.707 更 容易 让 人 接受 ; 影片 3 和 影片 4 的 相 


, 
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似 度 为 0.246 相 比 于 0.816 
加 让 人 信服 。 

Movielens 数据 集 P20 中 项 
量 ， 比 如 ml-100k 数据 集中 ， 


能 够 反映 两 部 电影 的 差异 ， 


结果 更 


目的 类 别 属 性 是 由 0-1 组 成 的 向 
电影 《Toy Story》 的 类 别 属 性 向 


量 为 : i —10,0,0,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0] , 共有 19 


fr, Aii, 两 个 项 目的 相似 度 的 公 


SAU: 


i;) » cos( iij) 3 


Sim, (i 


(4) 


Ap: a 表示 项 目 志 属性 向 量 的 第 x 位 属性 ， g (a, ) 表 示 属 


性 qj 出 现 的 频次 ，k EREE KE 


2.4.2 项 目 图 片 相似 度 
现 如 今 各 大 电 商 网 站 、 新 闻 网 站 中 各 种 各 样 精美 的 图 片 充 
斥 着 人 们 的 眼球 ， 打 开 页 面 ， 最 先 映 入 眼帘 的 就 是 图 片 ， 如 何 
展现 良好 的 第 一 印象 给 用 户 呢 ? 那 肯定 是 图 片 了 。 一 张 图 片 的 
好 坏 直 接 影 响 着 商品 (新 闻 ) 的 点 击 率 ， 项 目的 图 片 起 着 敲门砖 
的 作用 。 从 本 质 上 来 说 ， 图 片 和 文字 一 样 ， 都 是 信息 的 载体 。 
从 项 目 图 片 中 ， 在 不 知道 项 目 属性 信息 情况 下 ， 可 以 大 致 预测 
这 个 项 目的 功能 , 电影 就 是 娱乐 和 视觉 艺术 相 结合 绝 佳 的 例子 。 
人 们 通过 海报 可 以 知道 电影 的 名 称 ， 预 测 电影 的 氛围 场景 ， 
至 可 以 通过 电影 海报 发 现 电 影 类 型 。 如 图 1 所 示 ,《Toy Story》 
海报 该 海报 中 的 人 物 比 较 卡 通 ， 可 以 预测 该 电影 的 是 动画 类 型 
的 ， 可 能 受到 小 朋友 喜欢 ， 海 报 的 颜色 较为 轻快 明亮 ， 可 以 预 
测 出 该 电影 可 能 是 喜剧 类 型 。 


= 


图 1 Toy Story 海报 

还 就 电影 《Toy Story》 而 言 ， 该 影片 讲述 了 主角 牛仔 警 长 
胡 迪 和 太空 骑 警 巴 斯 光 年 的 故事 ， 通 过 海报 特征 找到 最 相似 的 
前 5 个 项 目 (相似 度 从 左 向 右 依 次 降低 )， 如 图 2 所 示 ， 这 些 海 
报 中 都 有 两 个 主要 人 物 ， 同 为 动画 类 型 。 在 真实 数据 集中 ， 电 
56 (Toy Story》 的 类 型 为 动画 、 儿 童 、 喜 剧 ; FR SZ (Chicken Run) 
的 类 型 为 动画 、 儿 童 、 喜 剧 ， 与 目标 项 目 类 型 也 相同 ; 电影 《A 
Grand Day Out》 的 类 型 为 动画 、 喜剧 , 电影 《Cats Don't Dance) 
的 类 型 为 动画 、 儿 童 、 音 乐 ， 电 影 《Doug's Ist Movie》 的 类 型 
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为 动画 、 儿 童 ， 电 影 《Jerry & Tom》 的 类 型 为 戏剧 。 后 面 四 部 


电影 的 类 型 与 《Toy Story》 不 完全 相同 ， 这 样 可 以 提高 推 
新 颖 度 ， 这 是 协同 过 滤 所 做 不 到 的 ， 因 为 协同 过 滤 方 法 需要 通 
过 数据 寻找 属性 类 似 的 项 目 ， 导 致 了 具有 新 属性 的 项 目 无 法 推 


荐 。 根 据 图 片 相 似 ， 我 们 可 以 得 到 较 好 的 推荐 效果 。 


图 2 与 《Toy Story》 相 似 的 项 目 

在 实际 推荐 应 用 场景 中 ， 每 个 项 目 都 会 携带 有 图 片 元 素 ， 
比如 电影 海报 、 商 品 展示 图 等 。 在 2.4.1 节 中 , 我 们 把 项 目 类 别 
属性 可 以 表示 为 一 个 一 维 的 向 量 ， 那 么 图 片 能 不 能 也 表示 成 一 
个 一 维 向 量 呢 ? 如 果 能 表示 成 一 维 向 量 我 们 就 可 以 采用 余弦 相 
似 度 计算 公式 计算 两 张 图 片 之 间 的 相似 程度 。 基 于 这 种 思想 本 
文采 用 VGG16 卷 积 神经 网 络 对 图 片 集 进行 特征 提取 ， 每 张 图 
片 则 表示 成 了 一 个 长 度 为 25088 的 一 维 向 量 了 ,其 中 元 素 为 浮 
点 数 ， 计 算 两 张 图 片 的 相似 度 公 式 如 下 : 


i 


sim, (ini))= cos(i,i; (5) 


其 中 : p, 表示 项 目 ii 图 片 向 量 了 的 第 x 位 数值 , k 表示 图 片 向 


= P 的 长 度 。 

2.4.3 融合 项 目 类 别 属性 和 图 片 特征 的 相似 度 计算 

经 过 24.1 节 和 2.4.2 节 的 相似 度 计 算 ， 得 到 最 终 的 融合 项 目 类 
别 属 性 和 图 片 特征 的 相似 度 IAS : 计算 公式 如 下 : 


sim, (i.i, ) - x* sim (i.i, )+(1-x)* sim, (1.1) © 


25 产生 推荐 

通过 2.3 节 提 出 的 USPTMEF 模型 对 用 户 评 分 缺失 项 进行 预 
测 填充 ， 得 到 填充 后 的 评分 矩阵 D ， 然 后 根据 IAS 相似 度 排 
序 取 前 N 项 , 根据 新 项 目 与 近邻 项 目的 相似 度 计算 用 户 对 新 项 


目的 预测 评分 ， 将 评分 高 的 前 几 个 项 目 推荐 给 用 户 ， 预 测 用 户 
评分 的 公式 如 下 : 
Sim (i i )*D 
LE EE (7) 
D |sim, (i i ) 


Jp. Dy denH P uXDRB j 的 评分 。 


3 ”实验 结果 及 分 析 
3.1 实验 数据 集 
本 文采 用 的 是 由 美国 GroupLens 项 目 组 提供 的 公开 数据 集 
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2 ， 其 中 ml-100k 数据 集 是 
组 成 的 。 其 中 udata 文件 包含 100000 条 评分 信息 


包含 943 个 用 


ai 


lm 数据 集 是 


ratings.dat XC 


TE 


6040 个 用 
包含 1000209 条 订 
3883 部 电影 信息 , users.dat 文件 包含 6040 
户 评分 都 是 1 到 5 之 间 的 整数 。 项 
i 电影 的 imdb， 利 用 


例 为 20%。 


] 5-fold 交叉 验证 


3.2 ”实验 预 处 理 


3.2.1 构建 测试 集 偏好 算 


阵 


943 个 用 


Movielens 提供 的 


E， 训 练 集 所 占 比例 为 80%， 测 试 集 所 占 比 


息 和 


"fl 


, u.user 文件 


1682 部 电影 


息 ，uitem 文件 包含 1682 部 电影 


影 信息 。 
户 信 息 和 3706 部 电影 组 成 。 其 中 
分 记录 ，movies.dat 文件 


ml- 


包含 


个 用 户 信息 , 两 种 数 


HE 


片 集 是 根据 电 
api 下 载 。 实 验 
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周 强 ， 等 启动 问题 的 研究 

其 中 : U, 表示 训练 集中 的 用 户 集合 ， 荆 ,, 为 测试 集 用 户 偏好 甜 
阵 。 
34 参数 设置 

本 文 提 出 的 USPTMF-CFIA 模型 中 包含 多 个 参数 ， 包 括 迭 
代 次 数 ;iter ， 学 习 率 alpha ， 正 则 化 参数 4 ， 特 征 向 量 的 维度 
k 。 通 过 5-folder 交叉 验证 ， 最 终 确 认 在 ml-100k 数据 集 上 ， 
iter 30, alpha 20.001, k 240, A20.01, ££ ml-1m Xt 
据 集 上 , iter 240, alpha 20.00001, 420.001, k=50. 
3.5 ”实验 对 比 

为 了 验证 本 文 提出 算法 的 有 效 性 ， 将 与 以 下 算法 作对 比 : 


c 


aJUSPMF: 基于 用 户 偏 好 的 矩阵 分 解 模 型 。 
b)USPTMF: 基于 用 户 偏 好 和 时 间 权 重 的 矩阵 分 解 模型 。 


"E 


实验 中 ， 假 设 大 于 用 户 平均 评分 的 整数 部 分 的 项 ， 表 示 用 c)Gantner SEAT 提出 的 MAP-BPR 模型 。 
户 喜欢 ， 记 为 1， 和 否则 表示 用 户 不 喜欢 ， 记 为 0， 这样 就 可 以 得 d)CBF-KNN: 基于 项 目 类 别 属性 的 协同 过 滤 模 型 。 
到 用 户 偏好 矩阵。 eJUSPTMF-CFA: 结合 项 目 类 别 属性 的 USPTMEF 模型 。 
3.2.2 冷 启动 项 目的 选取 fUSPTMF-CFIA: 融合 项 目 图 片 相似 度 和 类 别 属性 的 
将 测试 集中 的 评分 数据 全 置 为 0。 USPTMF 模型 。 
33 评价 标准 g)ACMF: 余 永 红 等 人 5 提出 的 基于 属性 耦合 的 矩阵 分 解 
本 文采 用 TopN 推荐 准确 度 作为 评价 指标 ， 验 证 本 文 改进 ”模型 。 
算法 的 有 效 性 。 通过 公式 (7) 来 预测 评分 ,提取 前 N 个 项 目 , 根 351 各 个 模型 准确 度 对 比 
据 推 荐 项 目 列表 中 某 个 被 推荐 的 项 目 是 否 出 现在 了 目标 用 户 的 数据 集 ml-100k 相 比 于 数据 集 ml-lm 小 很 多 ， 所 以 本 实验 
测试 集 (3.2.1 节 中 提 到 的 偏好 集 ) 中 ,判断 是 否 生成 了 一 个 正 。 ”在 数据 集 ml-100k 中 取 所 有 用 户 作为 评估 对 象 ， 在 ml-1m 数据 
确 的 推荐 只， 计算 公式 如 下 : 集中 随机 取 500 个 用 户 作 为 评估 对 象 ， 如 表 4 为 各 个 模型 在 数 
, 据 集 ml-100k 中 推荐 5 个 项 目的 准确 度 (prec@5) 对比， 如 表 
prec $n = 1 Y p ,NOT (8) ”5 为 各 个 模型 在 数据 集 ml-1m 中 推荐 5 个 项 目的 准确 度 (prec@5) 
um N xt. 
K 4 ml-100k 数据 集中 各 个 模型 准确 度 对 比 
Fold USPMF USPTMF MAP-BPR CBF-KNN USPTMF-CFA USPTMF-CFIA ACMF 
1 0.100106 0.106713 0.258536 0.137858 0.279745 0.288441 0.281212 
2 0.037327 0.04369 0.064051 0.100318 0.115164 0.12492 0.116428 
3 0.020361 0.029088 0.044963 0.058112 0.0386 0.043478 0.041585 
4 0.007423 0.009544 0.025027 0.030328 0.022057 0.012937 0.022957 
5 0.001697 0.00206 0.003393 0.003393 0.001485 0.003393 0.002475 
Average 0.033383 0.038219 0.079194 0.066002 0.09141 0.094634 0.092931 
d 5 ml-lm 数据 集中 各 个 模型 准确 度 对 比 
Fold USPMF USPTMF MAP-BPR CBF-KNN USPTMF-CFA USPTMF-CFIA ACMF 
1 0.0312 0.0388 0.074 0.0656 0.11 0.1312 0.1242 
2 0.0416 0.0436 0.1052 0.0696 0.1308 0.1312 0.1302 
3 0.032 0.0412 0.0936 0.062 0.0756 0.09 0.0856 
4 0.026 0.0354 0.1032 0.0708 0.0814 0.0576 0.0658 
5 0.028 0.0304 0.0588 0.0564 0.0584 0.0528 0.0502 
Average 0.03176 0.03788 0.08696 0.06488 0.09124 0.09256 0.0912 


实验 证 明 ， 前 5 项 推荐 实验 中 


， 模 型 USPTMF-CFIA 预测 


正确 率 是 最 高 的 ， 模 型 USPTMEF 次 之 ， 说 明 加 入 图 片 特 征 


anb 
GU 
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更 加 精确 的 找到 i 


邻 项 目 , 有 助 了 


相 比 于 USPMEF 准 


也 能 让 和 矩阵 分 解 模 型 预测 更 加 准 


荐 精度 


于 它 采 用 协同 过 滤 的 方式 ， 数 据 稀 玻 度 会 影响 其 
USPMF , USPTMF 


MAP-BPR 模型 比 


结合 了 项 目 类 别 属 性 ， 而 上 且 


确 度 提高 了 0.005~0.006， 说 明 加 入 时 间 
确 ; 对 于 CBF-KNN 模型 


。 此 外 U 


prec@5 与 公式 (6) 中 权重 
USPTMF-CFIA ££ ijj 
因子 x 的 关系 。 


T 


MAP-BPR 1| 


E 荐 正确 率 高 ， 


+ 


住 荐 实时 性 较 高 ， 但 是 


该 模型 没有 混入 基于 近邻 的 协同 过 


它 不 能 编码 的 信息 一 一 图 片 就 无 法 遇 
所 以 没有 本 文 提出 的 USPTMEF-CFIA 1 
荐 准确 度 仅 次 于 USPTMF-CFIA 模型 ， 但 是 耦合 相似 度 的 求解 


滤 思 想 ， 


时 间 复杂 度 相 当 高 。 
3.5.2 邻居 KK 对 准确 度 的 影响 


如 图 3 所 示 LZ 


系 ， 如 图 4 所 示 ， 


系 。 


0.1 


模型 USPTMF-CFA, USPTMF-CFIA 在 数据 
集 ml-100k 中 推荐 5 个 项 目的 准确 度 (prec@5 ) 与 邻 
模型 USPTMF-CFA, USPTMF-CFIA 在 数据 
集 ml-lm 中 推荐 5 个 项 目的 准确 度 (prec@5 ) 与 邻 


0.095 


—8— USPTMF-CFIA 
—&— USPTMF-CFA 


0.09 
0.085 
0.08 
0.075 


prec@5 


0.07 
0.065 
0.06 


妈 3 ml-100k 数据 集 


实验 证 明 邻 居 数 K 取 10 的 时 候 ， 模 型 
ml-100k 数据 集 上 prec@5 最 高 ， 邻 居 数 K 取 20 的 时 候 ， 模 型 
USPTMF-CFA 在 ml-100k 数据 集 上 prec@5 最 高 ， 但 是 低 于 
型 USPTMF-CFIA. 


0.095 


实验 证 明 邻 居 数 K 取 3 的 时 候 ， 模 型 
ml-lm 数据 集 上 prec@5 最 高 ， 邻 
USPTMF-CFA 在 ml-100k 数据 集 上 prec@5 最 高 ， 但 是 低 于 
型 USPTMF-CFIA. 
3.5.3 式 (6) 中 权重 因子 xX 对 准确 度 的 影响 

如 图 5 所 示 ， 模 型 USPTMF-CFIA 在 数据 集 


中 模型 USPTMF-CFA, USPTMF-CFIA 的 prec@5 与 
邻居 K 的 关系 


因此 对 于 项 
该 模型 ， 扩 展 性 不 高 ， 
荐 准确 度 高 ; 


J USPTMF-CFIA 在 


—=— USPTMF-CFIA 
—&— USPTMF-CFA 


2 3 5 


20 30 


图 4 ml-1m 数据 集中 模型 USPTMF-CFA, USPTMF-CFIA 的 prec@5 与 全 
居 K 的 关系 


居 数 K 取 5 的 时 候 ， 模 型 


n " 


J USPTMF-CFIA 在 


图 5 模型 USPTMF-CFIA 在 数据 外 
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0.1 


EDT x 的 关系 ， 如 图 6 所 示 ， 模 型 
E4E ml-100k 上 ，prec@5 与 公式 (6) 中 权 习 


is 


0 01 02 03 04 05 06 07 O8 09 1 


E ml-100k E, prec(25 与 公式 (6) 中 权重 


因子 x 的 关系 


实验 证 明 当 x= 0.05 时 , 在 数据 集 ml-100k E, prec@5 最 


大 ， 说 明 图 片 特征 权重 要 低 于 属 
位 ， 同 时 也 说 明 图 片 特征 作为 辅助 信息 


相同 的 项 


实验 证 明 当 
X. Hif 


图 6 模型 USPTMF-CFIA 在 数据 入 


0.095 


0.09 


0.085 


0.08 
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所 以 同类 型 的 项 目 
[以 图 片 特征 权重 取 值 更 大 一 些 。 
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的 耦合 相似 


偏好 和 时 
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准确 度 。 


余 永 红 等 人 [2] 提 到 
系统 ,并 不 是 最 好 的 方案 ,虽然 能 
但 是 时 间 复 杂 度 相当 高 ， 


x=0.15 时 ， 在 数据 集 ml-Im 上 ，prec@5 最 
E ml-Im 相 比 于 数据 集 ml-100k， 项 目 〈 电 影 ) 多 了 
会 更 多 ， 这 时 图 片 特征 的 作用 将 


近邻 项 目 ， 同 时 将 用 户 
融入 矩阵 分 解 ， 将 协同 过 滤 与 矩 
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日 似 度 计算 方式 ， 比 如 


度 计 算 , 对 于 项 目 数 庞大 的 推荐 
很 好 计算 项 目 之 
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ml-100k 上 ， 


盟 性 相同 的 项 目 推荐 效果 也 
能 够 更 好 的 找 出 近邻 项 目 ， 
的 实验 证 明 ， 本 文 提 出 的 模 


页 ， 针 对 含有 文字 少 、 图 片 多 


能 够 产生 很 好 的 推荐 效果 。 在 接 下 来 的 工作 是 研究 项 
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文 关系 ， 找 出 用 户 与 项 目 之 


不 佳 ， 这 时 结合 项 目的 图 片 特征 ， 
通过 在 数据 集 ml-100k 和 ml-1m 
型 能 够 有 效 缓解 新 项 目 冷 启 动 问 是 
的 系统 ， 

遇 性 计算 效率 ， 同 时 将 利用 
间 的 关系 ， 来 进一步 提高 推荐 效 
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